Buena sombra le cobija, se completa el refrán. En julio, se anunció que HP invertirá 50 millones de dólares en Hortonworks, como parte de su estrategia de Big Data, que integra Hadoop en su suite HP HAVEn. Es la ratificación de una tendencia visible: las tres distribuciones open source de Hadoop han recibido sucesivamente el respaldo financiero de los colosos de la industria TI. Unas semanas antes, Google había inyectado 80 millones de dólares en MapR, y previamente fue Cloudera la que recibió una inversión de 740 millones por parte de Intel. Cada una de estas iniciativas tiene su propia explicación, pero no se trata de coincidencia sino de una corriente a la que este blog ha prestado atención desde hace tiempo.
¿Qué está pasando? Los sistemas gestores de bases de datos, en su acepción tradicional, están bajo la presión de vertiginosas demandas del mercado, tanto en lo que concierne al incremento de capacidades (Big Data) como por la aparición de nuevos tipos de datos (IoT). Tendencia que confluye en la plataforma Hadoop: concebida inicialmente para satisfacer necesidades de los grandes proveedores de servicios web (Google y Yahoo), se enfrenta al reto de ganar la confianza de las empresas más conservadoras, que prefieren aferrarse a lo que conocen.
Hay otros actores en liza – Pivotal, Syncsort, etc – pero de momento hay tres protagonistas que disfrutan de una riqueza insólita en el mundo del software abierto: Hortonworks y MapR atesoran unos 200 millones cada uno, mientras los directivos de Cloudera están sentados sobre un botín de 1.000 millones de dólares, que no necesitan.
El pasado mes de junio, un colaborador de este blog visitó, junto a un grupo de periodistas europeos, la sede de Hortonworks en Palo Alto. Según las previsiones que maneja Rob Bearden, CEO de la compañía, el mercado del complejo Big Data tendrá en 2015 un valor total de 25.000 millones de dólares, de los que unos 6.000 millones corresponderán a Hadoop [27% software, 38% hardware y 35% servicios] y se multiplicaría por ocho hacia finales de la década. La razón de este crecimiento no es otra que la necesidad de analizar los datos de manera proactiva en lugar de reactiva.
Herb Cunitz, presidente de Hortonworks desde 2012 – antes pasó por IBM, SpringSource y VMware – expuso a los periodistas visitantes la estrategia de la empresa: adaptarse a las nuevas demandas, permitiendo almacenar datos a gran escala a través de un modelo de ´embeddability` con otras soluciones – principalmente Microsoft y Teradata, también SAP y ahora HP, además de firmar un acuerdo con el integrador Accenture – que le confieren la posibilidad de una amplia base instalada, sin por ello renunciar a la pureza del open source. En este punto resaltó Cunitz la diferencia con Cloudera y MapR, que han añadido módulos ´propietarios` a sus núcleos open source.
La plataforma HDP 2.1 (Hortonworks Data Platform) ofrece distintas opciones de despliegue bajo Linux (RedHat, Suse), Windows, on premise, cloud o en modo hibrido. La idea matriz es ofrecer a las empresas una plataforma abierta, gestionable, segura y flexible, preparada para nuevos entornos (in-memory, NoSQL, online…).
Una de las evoluciones más interesantes de Hadoop es el desarrollo de Yarn [Yet Another Research Negotiator], una nueva capa que se encarga de gestionar los recursos para cada uno de los procesos de datos necesarios. De esta forma, la gestión de los recursos actúa de modo compartido e independiente, proporcionando – al decir de Cunitz – un mayor rendimiento, escalabilidad y mejoras en la gestión del cluster.
Según algunos analistas, Hadoop podría eventualmente permitir que se prescinda de las bases de datos convencionales – Cunitz rehusó especular al respecto, aunque definió a Yarn como «a true data operating system» – pero señaló que Hadoop está en camino de imponerse como plataforma universal de proceso de datos. Esto requerirá, aparte de perseverar en su línea, garantizar la integridad y rigor que exigen las empresas antes de dar el paso hacia la adopción de propuestas basadas en software de código abierto. En este sentido apunta la reciente adquisición de una pequeña compañía, XA Secure, que entre otras cosas aportará, una vez digerida por Hortonworks, una consola de administración para gestionar la seguridad en Hadoop.
Por otra parte, Hortonworks ha añadido recientemente Apache Spark, un motor que ha captado interés por su condición de acelerador de procesos in-memory y otras formas de análisis voluminosos. Sus competidores han dado ese paso anteriormente: Cloudera en febrero, y MapR en abril, aunque Cunitz restó importancia a esos antecedentes al subrayar que en su caso la versión de Spark es 100% open source.
HDP está disponible on line bajo un régimen de licencia Apache, pero el modelo de negocio de la compañía busca la rentabilidad a través de la prestación de servicios de soporte, diagnóstico, formación, despliegue y certificación, tareas para las que cuenta con unos 400 empleados que, a su vez, contribuyen al desarrollo bajo el amparo de la comunidad Apache.
En menos de dos años, Hortonworks dice haber conquistado 300 clientes – «75 nuevos cada trimestre» – que suman 80.000 nodos Hadoop en diversas partes del mundo. Un 40% de esos nodos corresponden a los sistemas de Yahoo – las raíces tiran – pero Cunitz enumeró algunos clientes importantes: eBay, Macy´s, Expedia y, en Europa, EDF y Spotify. En Asia, su principal usuario es Samsung, con 400 nodos. Un dato ofrecido por Bearden en su breve aparición ante la prensa fue este: dijo conocer 30 migraciones desde otras distribuciones de Hadoop al modelo Hortonworks, y ninguna en sentido inverso. De hecho, señaló el CEO, la ratio de renovación de licencias es del 100%.
De la visita a la sede de Hortonworks, este blog extrajo la conclusión de que la compañía tiene en su mira preservar la independencia de la misma – no en vano sus directivos Bearden y Cunitz abandonaron SpringSource tras comprarla VMwarem que acabó transfiriéndola a Pivotal – confían en que serán capaces de apoyarse en tres pilares fundamentales de su estrategia: innovación del núcleo, extensión de Hadoop como plataforma y potenciación de su ´ecosistema`.
[basado en un informe de Daniel Comino]